Introdução

Consideremos a seguinte situação:

  • Foram entrevistados 1320 consumidores de aparelhos de som.
    • Variáveis medidas: marca adquirida e principal motivo da compra.
  • Objetivo: verificar se existe associação entre marca e atributo em termos de aquisição por parte dos consumidores.
Atributo
Marca Qualidade Tecnologia Potência Recursos Preço Marca Total
Sony 135 140 95 55 40 60 525
Aiwa 50 115 40 60 5 15 285
Gradiente 90 55 20 35 40 10 250
Philips 60 25 35 10 5 30 165
Sharp 30 20 5 10 10 20 95
Total 365 355 195 170 100 135 1320

Que marca de aparelho de som é mais adquirida em função do preço?

Introdução

Consideremos a seguinte situação:

  • Imagine que um pesquisador esteja interessado em investigar se existe ou não algum tipo de relação entre a origem de capital (asiático, brasileiro, americano, europeu ou latino) e o nível de transparência das informações contábeis (alto, médio ou baixo) de empresas pertencentes à uma amostra de tamanho 216.
Grau de Disclosure
Controle Acionário Alto Médio Baixo Total
Asiático 8 10 13 31
Brasileiro 34 27 14 75
Americano 16 19 39 74
Europeu 3 2 1 6
Latino 10 17 3 30
Total 71 75 70 216

Análise de correspondência


Análise de Correspondências: Técnica multiariada que visa medir o grau de associação de variáveis categorizadas dispostas em tabelas de contingência.

  • Simples: Avalia as relações existentes entre duas variáveis
  • Múltipla: Avalia as relações existentes entre mais de duas variáveis

Análise de correspondência Simples

Tabela de contingência: De modo geral, uma tabela de contingência \(a \times b\) é do tipo:

Variável Y
1 2 \(\cdots\) \(b\) Total
1 \(n_{11}\) \(n_{12}\) \(\cdots\) \(n_{1b}\) \(n_{1 \cdot}\)
Variável X 2 \(n_{21}\) \(n_{22}\) \(\cdots\) \(n_{2b}\) \(n_{2 \cdot}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\ddots\) \(\vdots\) \(\vdots\)
\(a\) \(n_{a1}\) \(n_{a2}\) \(\cdots\) \(n_{ab}\) \(n_{a \cdot}\)
Total \(n_{\cdot 1}\) \(n_{\cdot 2}\) \(\cdots\) \(n_{\cdot b}\) \(n_{\cdot \cdot} = n\)

\(n_{ij}\) representa o número de elementos que pertencem à categoria \(i\) da variável \(X\) e à categoria \(j\) da variável \(Y\)

Análise de correspondência Simples

Matriz de correspondências: A tabela de contingência acima pode ser convertida em uma matriz de correspondência \(\mathbf{P}\):

Variável Y
1 2 \(\cdots\) \(b\) Total
1 \(p_{11}\) \(p_{12}\) \(\cdots\) \(p_{1b}\) \(p_{1 \cdot}\)
Variável X 2 \(p_{21}\) \(p_{22}\) \(\cdots\) \(p_{2b}\) \(p_{2 \cdot}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\ddots\) \(\vdots\) \(\vdots\)
\(a\) \(p_{a1}\) \(p_{a2}\) \(\cdots\) \(p_{ab}\) \(p_{a \cdot}\)
Total \(p_{\cdot 1}\) \(p_{\cdot 2}\) \(\cdots\) \(p_{\cdot b}\) \(p_{\cdot \cdot} = 1\)

\[\begin{equation} \mathbf{P} = (p_{ij})=\left(\frac{n_{ij}}{n}\right) \end{equation}\]

Análise de correspondência Simples

A última coluna da Tabela acima contém as somas das linhas, isto é, \(p_{i \cdot}=\displaystyle \sum_{j=1}^{b}p_{ij}\). Essa coluna pode ser representada por um vetor, denotado por \(\mathbf{r}\):

\[\mathbf{r} = \mathbf{P} \mathbf{j} = (p_{1 \cdot}, p_{2 \cdot}, \cdots, p_{a \cdot})^{t}=\left ( \frac{n_{1 \cdot}}{n}, \frac{n_{2 \cdot}}{n}, \cdots, \frac{n_{a \cdot}}{n} \right )^{t}\]

em que \(\mathbf{j}\) é um vetor \(1 \times b\) de \(1\)’s.

Análise de correspondência Simples


Analogamente, temos o vetor \(\mathbf{c}\) com as somas das colunas:

\[\mathbf{c}=\mathbf{j}^{t}\mathbf{P}=(p_{\cdot 1}, p_{\cdot 2}, \cdots, p_{\cdot b})=\left ( \frac{n_{ \cdot 1}}{n}, \frac{n_{\cdot 2}}{n}, \cdots, \frac{n_{\cdot b}}{n} \right )\]

em que \(p_{\cdot j}= \displaystyle \sum_{i=1}^{a}p_{ij}\).

Análise de correspondência Simples

A matriz de correspondência e os totais marginais na tabela de correspondências podem ser expressos como:

\[\begin{bmatrix}\mathbf{P} & \mathbf{r}\\ \mathbf{c}^{t} & 1 \end{bmatrix}=\begin{bmatrix} p_{11} & p_{12} & \cdots & p_{1b} & p_{1\cdot} \\ p_{21} & p_{22} & \cdots & p_{2b} & p_{2\cdot} \\ \vdots & \vdots & \ddots & \vdots & \vdots\\ p_{a1} & p_{a2} & \cdots & p_{ab} & p_{a\cdot}\\ p_{\cdot1} & p_{\cdot2} & \cdots & p_{\cdot b} & 1 \end{bmatrix}\]

Análise de correspondência Simples

Perfis de linha e coluna da matriz \(\mathbf{P}\)

Podemos então definir as matrizes \(\mathbf{D}_{r}\) e \(\mathbf{D}_{c}\) como:

\[\mathbf{D}_{r}=\begin{bmatrix}p_{1 \cdot} & 0 & \cdots & 0\\ 0 & p_{2 \cdot} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{a \cdot}\end{bmatrix}\ \ \ \mathrm{e} \ \ \ \mathbf{D}_{c}=\begin{bmatrix}p_{ \cdot 1} & 0 & \cdots & 0\\ 0 & p_{\cdot 2} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{\cdot b}\end{bmatrix}\]

Análise de correspondência Simples

Decomposição em Coordenadas Principais

Considere a matriz \(\mathbf{Z}=\mathbf{D}_r^{-\frac{1}{2}}(\mathbf{P}-\mathbf{r}\mathbf{c}^{t})\mathbf{D}_c^{-\frac{1}{2}}\).

Pode-se decompor a matriz \(\mathbf{Z}\) através de sua decomposição em valores singulares (SVD), obtendo-se o resultado:

\[\mathbf{Z}= \mathbf{U}\mathbf{\Lambda} \mathbf{V}^{t}\]

em que \(\mathbf{U}^t\mathbf{U} = \mathbf{V}^t\mathbf{V} = \mathbf{I}\)

Análise de correspondência Simples

Decomposição em Coordenadas Principais

em que

  • A matriz \(\mathbf{U}\), ortonormal, contém os autovetores da matriz \(\mathbf{Z}\mathbf{Z}^{t}\)

  • A matriz \(\mathbf{V}\), ortonormal, contém os autovetores da matriz \(\mathbf{Z}^{t}\mathbf{Z}\).

  • \(\mathbf{\Lambda}\) é a matriz de dimensão \(k \times k\) contendo os valores singulares da matriz \(\mathbf{Z}\) ordenados em ordem decrescente.

Análise de correspondência Simples

Decomposição em Coordenadas Principais

Considere ainda as matrizes:

  • \(\mathbf{A} = \mathbf{D}_{r}^{\frac{1}{2}}\mathbf{U}_{a \times k}\) é uma matriz de dimensão \(a \times k\), na qual \(k\) é o posto da matriz \(\mathbf{Z}_{a \times b}\) dado por \(k = \min(a-1, b-1)\)

  • \(\mathbf{B} = \mathbf{D}_{c}^{\frac{1}{2}}V_{b \times k}\) é uma matriz de dimensão \(b \times k\)

Análise de correspondência Simples

Decomposição em Coordenadas Principais

Assim, as coordenadas principais das linhas da matriz \(\mathbf{Z}\) são dadas como:

\[\mathbf{X}_{a \times k}=\mathbf{D}_{r}^{-1}\mathbf{A}_{a \times k}\mathbf{\Delta}_{k \times k}\]

e as coordenadas principais das colunas da matriz \(\mathbf{Z}\) são dadas por:

\[\mathbf{Y}_{b \times k}=\mathbf{D}_{c}^{-1}\mathbf{B}_{b \times k}\mathbf{\Delta}_{k \times k}\]

Análise de correspondência Simples

Decomposição em Coordenadas Principais

A inércia total, que é a variação total existente no sistema é dada por:

\[\text{Inércia Total} = \displaystyle \sum_{i=1}^{k}\lambda_{i}^{2}\]

em que \(\lambda_{i}\) são os valores singulares obtidos a partir da decomposição do valor singular de \(\mathbf{Z}\), \(i=1,\cdots, k\).

Análise de correspondência Simples

Decomposição em Coordenadas Principais

A proporção de explicação, da i-ésima coordenada principal em relação à inércia total \((\pi)\) é dada por:

\[\pi_i = \displaystyle \frac{\lambda_{i}^{2}}{ \displaystyle \sum_{i=1}^{k}\lambda_{i}^{2}}\]

Análise de correspondência Simples

Decomposição em Coordenadas Principais

A inércia total, está relacionada com a estatística qui-quadrado da seguinte forma:

\[\text{Inércia Total} = \displaystyle \sum_{i=1}^{k}\lambda_{i}^{2} = \displaystyle{\frac{\chi^2}{n}}\]

  • Teste Qui-quadrado para dependência entre linhas e colunas: Usar distribuição \(\chi^2_{(a-1)(b-1)}\).

Exemplo Análise de correspondência Simples

Os dados referem-se à uma pesquisa interessada em investigar se existe ou não algum tipo de relação entre a origem de capital (asiático, brasileiro, americano, europeu ou latino) e o nível de transparência das informações contábeis (alto, médio ou baixo) de empresas pertencentes à uma amostra de tamanho 216.

Grau de Disclosure
Controle Acionário Alto Médio Baixo Total
Asiático 8 10 13 31
Brasileiro 34 27 14 75
Americano 16 19 39 74
Europeu 3 2 1 6
Latino 10 17 3 30
Total 71 75 70 216

Exemplo Análise de correspondência Simples

library(FactoMineR)
library(factoextra)
tc <- read.table("https://raw.githubusercontent.com/tiagomartin/est022/refs/heads/main/dados/TC_disclosure.txt",header=TRUE)
tc
           Alto Medio Baixo
Asiatico      8    10    13
Brasileiro   34    27    14
Americano    16    19    39
Europeu       3     2     1
Latino       10    17     3
res.ca <- CA(tc, graph = FALSE)
eig.val <- get_eigenvalue(res.ca)
eig.val
      eigenvalue variance.percent cumulative.variance.percent
Dim.1 0.13561509         88.36848                    88.36848
Dim.2 0.01785037         11.63152                   100.00000

Exemplo Análise de correspondência Simples

O Biplot da Análise de Correspondência

Gráfico que projeta as categorias de linhas e colunas em um único plano. Permite uma interpretação visual imediata.

fviz_ca_biplot(res.ca, repel = TRUE, ggtheme = theme_minimal())

  • Pontos azuis: Categorias de origem do capital (Europeu, Brasileiro, Latino, Americano, Asiático)
  • Triângulos vermelhos: Categorias de nível de transparência (Alto, Médio, Baixo)

Exemplo Análise de correspondência Simples

  • Dimensão 1: Este eixo horizontal representa a distinção mais significativa na amostra (88.4% da Inércia).
    • Lado Esquerdo do Eixo: As empresas com origem de capital Europeu, Brasileiro e Latino estão fortemente associadas aos níveis de transparência Alto e Médio. Isso sugere que, na amostra, as empresas dessas origens tendem a apresentar maior transparência contábil.
    • Lado Direito do Eixo: As empresas com origem de capital Americano e Asiático estão associadas ao nível de transparência Baixo. A origem americana parece ter uma associação um pouco mais acentuada com esse nível de transparência do que a origem asiática.

Exemplo Análise de correspondência Simples

  • Dimensão 2: Este eixo vertical complementa a primeira dimensão, detalhando as relações (11.6% da Inércia).
    • Parte Superior do Eixo: A categoria de transparência Alto está associada a empresas de capital Europeu e Brasileiro. Isso diferencia o perfil de transparência das empresas europeias e brasileiras do de origens latinas de capital no lado esquerdo do biplot.
    • Parte Inferior do Eixo: A categoria de transparência Médio está associada a empresas de capital Latino. Isso distingue o perfil das empresas latinas das empresas europeias e brasileiras, que, embora ambas associadas a níveis mais altos de transparência, têm uma nuance diferente.

Exemplo Análise de correspondência Simples

Contribuição (contrib): Qual categoria de origem do capital contribui mais para a formação da dimensão 1?

fviz_contrib(res.ca, choice = "row", axes = 1)

Exemplo Análise de correspondência Simples

O gráfico nos mostra que a Dimensão 1 é predominantemente impulsionada pelas diferenças nas características das empresas de capital Americano, Brasileiro e Latino. As empresas de capital Asiático e Europeu contribuem muito menos para essa dimensão, sugerindo que a sua posição no gráfico é menos influente na definição do principal eixo de variação. Essa informação é crucial para entender a hierarquia de importância de cada categoria na sua análise.

Exemplo Análise de correspondência Simples

Contribuição (contrib): Qual categoria de origem do capital contribui mais para a formação da dimensão 2?

fviz_contrib(res.ca, choice = "row", axes = 2)

Exemplo Análise de correspondência Simples

O gráfico de contribuições para a Dimensão 2 esclarece que, embora o primeiro eixo (Dimensão 1) seja dominado pelas diferenças em relação à origem americana, a segunda dimensão é quase inteiramente impulsionada pelas empresas de capital latino e, em menor grau, brasileiro. Isso nos ajuda a entender a nuance nas associações que o biplot mostrou: a segunda dimensão separa claramente as empresas latinas e brasileiras das demais, complementando a distinção principal observada na primeira dimensão.

Exemplo Análise de correspondência Simples

Contribuição (contrib): Qual categoria de níveis de transparência contribui mais para a formação de uma dimensão 1?

fviz_contrib(res.ca, choice = "col", axes = 1)

Exemplo Análise de correspondência Simples

O gráfico confirma que a Dimensão 1 é predominantemente impulsionada pela categoria de transparência Baixo. Essa categoria é o principal motor da variação no primeiro eixo, enquanto as categorias de transparência Alto e Médio desempenham um papel secundário.

Em conjunto com os gráficos de contribuição das linhas (origem do capital), este gráfico reforça a conclusão de que o principal contraste nos dados é entre a baixa transparência (associada a capital americano e asiático) e o restante da amostra.

Exemplo Análise de correspondência Simples

Contribuição (contrib): Qual categoria de níveis de transparência contribui mais para a formação de uma dimensão 2?

fviz_contrib(res.ca, choice = "col", axes = 2)

Exemplo Análise de correspondência Simples

O gráfico confirma que, enquanto a primeira dimensão é impulsionada pela distinção entre transparência Baixa e os demais níveis, a segunda dimensão é definida pela distinção entre as transparências Média e Alta. Isso explica o que vimos no biplot: a Dimensão 2 separa as empresas com transparência média (associadas ao capital latino) daquelas com transparência alta (associadas ao capital europeu).

Análise de Correspondência Múltipla

A análise de correspondência múltipla (ACM) é uma extensão da ACS. Os objetivos dessa análise são:

  • facilitar a construção de uma tipologia de indivíduos através das categorias das variáveis categóricas observadas;
  • estudar a relação entre as variáveis observadas, bem como resumí-las;
  • permitir a comparação de categorias das variáveis observadas.

Análise de Correspondência Múltipla

A ACM é de emprego mais frequente que a ACS, uma vez que a maioria das tabelas de dados estatísticos costuma apresentar muitas variáveis categóricas, necessitando de uma análise simultânea de todas as características em um mapa de baixa dimensionalidade.

O tratamento matemático dado à ACM sofre apenas ligeiras adaptações em relação à ACS.

Análise de Correspondência Múltipla

Matriz Indicadora

  • Tabela de códigos condensados: tabela obtida através da codificação das categorias das variáveis.

  • Matriz Indicadora: A matriz indicadora provém da tabela de códigos condensados pelo desdobramento de cada coluna relativa a uma característica em tantas colunas quantas forem suas categorias.

  • Para cada indivíduo, registra-se o valor 1 se determinada modalidade foi verificada, e, 0 caso contrário.

Análise de Correspondência Múltipla

Matriz Indicadora

  • Fixados um caso e uma característica, dado que uma e apenas uma modalidade se verifica, apenas um único valor 1 é registrado.
  • Em decorrência disso, a soma das linhas na matriz indicadora é igual ao número de características.
  • A matriz indicadora será representada por \(\mathbf{X} = [X_1 | X_2 | \cdots | X_J]\), onde \(J\) é o número de características, e \(X_1, X_2, \cdots, X_J\) referem-se às partições da matriz \(\mathbf{X}\) para cada variável categórica nela existente.

Análise de Correspondência Múltipla

Obtenção das Coordenadas Principais

Para efetuar a ACM, parte-se da matriz indicadora \(\mathbf{X}\) de \(I\) casos e \(J\) características, realizam-se as mesmas operações de decomposição em valores singulares e cálculos de coordenadas realizados na ACS.

Exemplo Análise de correspondência Múltipla

O estudo de caso refere-se aos dados estatísticos de uma operadora de créditos. As características em estudo encontram-se resumidas no Quadro abaixo:

Variável Descrição Categorias
Qualid Qualidade do cliente bom; mau
Idade Idade do cliente menor que 25; entre 25 e 45; maior que 45
EstCiv Estado civil solteito; casado; separado; viúvo
Poup Valor em poupança menos de 10mil; entre 10 e 100mil; mais que 100mil
CatProf Categoria da profissão executivo; profissional liberal; empregado; outro
SMB Saldo bancário menos de 5mil; entre 5 e 20 mil; mais que 20mil
Divida Montante da dívida menos de 10mil; entre 10 e 50mil; mais que 50 mil
BImovs Valor dos bens imóveis menos de 15mil; entre 15 e 100mil; mais que 100mil

Exemplo Análise de correspondência Múltipla

library(FactoMineR)
library(factoextra)
library(ggplot2)
tabela <- read.table("https://raw.githubusercontent.com/tiagomartin/est022/refs/heads/main/dados/acm_dados_2.dat",header=TRUE)
tabela
   Caso Qualid      Idade   EstCiv          Poup      CatProf        SMB
1     1    mau   idade<25 solteiro    poup<10mil    empregado SMB5a20mil
2     2    mau   idade<25   casado    poup<10mil    empregado   SMB<5mil
3     3    mau   idade<25 solteiro    poup<10mil        outro   SMB<5mil
4     4    bom   idade<25 solteiro    poup<10mil    empregado SMB5a20mil
5     5    mau   idade<25 solteiro poup10a100mil prof_liberal   SMB<5mil
6     6    mau   idade<25   casado    poup<10mil        outro   SMB<5mil
7     7    bom   idade<25 solteiro    poup<10mil    empregado SMB5a20mil
8     8    mau   idade<25 separado    poup<10mil    empregado SMB5a20mil
9     9    mau   idade<25   casado    poup<10mil        outro   SMB<5mil
10   10    mau idade25a45 solteiro poup10a100mil    empregado   SMB<5mil
11   11    bom idade25a45   casado   poup>100mil prof_liberal  SMB>20mil
12   12    bom idade25a45   casado poup10a100mil    empregado  SMB>20mil
13   13    mau idade25a45 separado poup10a100mil        outro   SMB<5mil
14   14    bom idade25a45   casado   poup>100mil    empregado SMB5a20mil
15   15    bom idade25a45   casado poup10a100mil    empregado SMB5a20mil
16   16    mau idade25a45   casado poup10a100mil    empregado   SMB<5mil
17   17    mau idade25a45 solteiro poup10a100mil    empregado   SMB<5mil
18   18    mau idade25a45 separado poup10a100mil prof_liberal SMB5a20mil
19   19    bom idade25a45   casado   poup>100mil    executivo  SMB>20mil
20   20    bom idade25a45   casado    poup<10mil prof_liberal  SMB>20mil
21   21    mau idade25a45   casado poup10a100mil    executivo SMB5a20mil
22   22    bom idade25a45   casado   poup>100mil    executivo  SMB>20mil
23   23    mau idade25a45 separado poup10a100mil prof_liberal  SMB>20mil
24   24    mau idade25a45 solteiro poup10a100mil    empregado SMB5a20mil
25   25    bom idade25a45   casado   poup>100mil    executivo  SMB>20mil
26   26    bom idade25a45   casado   poup>100mil prof_liberal SMB5a20mil
27   27    mau idade25a45 separado poup10a100mil        outro   SMB<5mil
28   28    mau idade25a45   casado poup10a100mil    empregado SMB5a20mil
29   29    mau idade25a45   casado    poup<10mil        outro   SMB<5mil
30   30    bom   idade>45   casado   poup>100mil    executivo  SMB>20mil
31   31    bom   idade>45   casado poup10a100mil    empregado SMB5a20mil
32   32    mau   idade>45 solteiro   poup>100mil prof_liberal SMB5a20mil
33   33    mau   idade>45   casado poup10a100mil    empregado   SMB<5mil
34   34    bom   idade>45   casado poup10a100mil        outro   SMB<5mil
35   35    mau   idade>45    viuvo poup10a100mil prof_liberal  SMB>20mil
36   36    bom   idade>45   casado poup10a100mil    executivo  SMB>20mil
37   37    bom   idade>45   casado   poup>100mil prof_liberal  SMB>20mil
38   38    mau   idade>45   casado   poup>100mil    empregado   SMB<5mil
39   39    bom   idade>45   casado    poup<10mil        outro   SMB<5mil
40   40    mau   idade>45   casado poup10a100mil    empregado SMB5a20mil
41   41    bom   idade>45 separado poup10a100mil prof_liberal  SMB>20mil
42   42    mau   idade>45   casado   poup>100mil    executivo SMB5a20mil
43   43    mau   idade>45   casado    poup<10mil        outro   SMB<5mil
44   44    mau   idade>45    viuvo poup10a100mil        outro   SMB<5mil
45   45    bom   idade>45   casado poup10a100mil    empregado SMB5a20mil
46   46    mau   idade>45 separado poup10a100mil    empregado   SMB<5mil
47   47    bom   idade>45   casado poup10a100mil    empregado SMB5a20mil
48   48    bom   idade>45    viuvo   poup>100mil    executivo  SMB>20mil
49   49    mau   idade>45 separado poup10a100mil    empregado   SMB<5mil
50   50    bom   idade>45    viuvo   poup>100mil prof_liberal  SMB>20mil
        Divida        BImovs
1    div<10mil    bens<15mil
2  div10a50mil    bens<15mil
3    div<10mil bens15a100mil
4    div<10mil bens15a100mil
5    div>50mil   bens>100mil
6    div>50mil bens15a100mil
7    div<10mil bens15a100mil
8    div<10mil    bens<15mil
9  div10a50mil bens15a100mil
10   div>50mil   bens>100mil
11   div<10mil   bens>100mil
12   div<10mil bens15a100mil
13   div<10mil    bens<15mil
14   div<10mil bens15a100mil
15   div<10mil bens15a100mil
16 div10a50mil bens15a100mil
17 div10a50mil   bens>100mil
18 div10a50mil   bens>100mil
19   div<10mil   bens>100mil
20   div<10mil   bens>100mil
21   div>50mil   bens>100mil
22   div<10mil   bens>100mil
23 div10a50mil bens15a100mil
24   div<10mil    bens<15mil
25 div10a50mil   bens>100mil
26 div10a50mil   bens>100mil
27   div>50mil bens15a100mil
28   div>50mil   bens>100mil
29 div10a50mil    bens<15mil
30   div<10mil bens15a100mil
31   div<10mil   bens>100mil
32 div10a50mil bens15a100mil
33 div10a50mil   bens>100mil
34   div<10mil bens15a100mil
35   div<10mil   bens>100mil
36   div<10mil   bens>100mil
37   div<10mil   bens>100mil
38   div>50mil    bens<15mil
39 div10a50mil   bens>100mil
40 div10a50mil bens15a100mil
41   div<10mil   bens>100mil
42   div>50mil bens15a100mil
43 div10a50mil   bens>100mil
44   div<10mil bens15a100mil
45   div<10mil   bens>100mil
46 div10a50mil   bens>100mil
47   div<10mil   bens>100mil
48 div10a50mil   bens>100mil
49 div10a50mil bens15a100mil
50   div<10mil   bens>100mil
dados_analise <- tabela[, -1] # Remove a coluna 'Caso'

Exemplo Análise de correspondência Múltipla

res.mca <- FactoMineR::MCA(dados_analise, graph = FALSE)
eig.val <- get_eigenvalue(res.mca)
eig.val
        eigenvalue variance.percent cumulative.variance.percent
Dim.1  0.434500086       20.4470629                    20.44706
Dim.2  0.243784193       11.4721973                    31.91926
Dim.3  0.215191427       10.1266554                    42.04592
Dim.4  0.184148695        8.6658210                    50.71174
Dim.5  0.157423013        7.4081418                    58.11988
Dim.6  0.146301364        6.8847701                    65.00465
Dim.7  0.129179937        6.0790558                    71.08370
Dim.8  0.122401404        5.7600661                    76.84377
Dim.9  0.109974337        5.1752629                    82.01903
Dim.10 0.088554659        4.1672781                    86.18631
Dim.11 0.082599420        3.8870315                    90.07334
Dim.12 0.065871827        3.0998507                    93.17319
Dim.13 0.056775572        2.6717916                    95.84499
Dim.14 0.040778027        1.9189660                    97.76395
Dim.15 0.022444055        1.0561908                    98.82014
Dim.16 0.017234032        0.8110133                    99.63116
Dim.17 0.007837953        0.3688449                   100.00000

Exemplo Análise de correspondência Múltipla

# Gerar o gráfico de "Scree"
fviz_eig(res.mca, 
         addlabels = TRUE, # Adiciona os rótulos de porcentagem nas barras
         ylim = c(0, 50))  # Limita o eixo y para melhor visualização

Exemplo Análise de correspondência Múltipla

fviz_mca_var(res.mca,
             col.var = "contrib", # Cores baseadas na contribuição para as dimensões (opcional)
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), # Paleta de cores para a contribuição (opcional)
             repel = TRUE,       # Evita a sobreposição de rótulos
             ggtheme = theme_minimal()) # Tema minimalista (opcional)

Exemplo Análise de correspondência Múltipla

O biplot revela dois perfis de cliente bem distintos, separados pelo eixo horizontal (Dim1).

  • Lado Esquerdo (Perfil de Bom Crédito): Este quadrante agrupa características associadas a um cliente “bom”.
    • A categoria bom está muito próxima de executivo, poup>100mil e SMB>20mil.
    • O perfil de bom crédito se associa a indivíduos mais velhos (idade>45 e viuvo), com alta poupança (poup>100mil), alta renda (SMB>20mil) e muitos bens (bens>100mil).
    • A baixa dívida (div<10mil) também está localizada neste lado do gráfico.

Exemplo Análise de correspondência Múltipla

  • Lado Direito (Perfil de Mau Crédito): Este lado do gráfico contém as características de um cliente “mau”.
    • A categoria “mau” se associa a perfis mais jovens (idade<25), solteiro, empregado e com pouca poupança (poup<10mil).
    • A alta dívida (div>50mil e div10a50mil) também está no lado direito, próxima do ponto mau e de categorias como separado e outro.
    • A baixa renda (SMB<5mil) está fortemente associada a esse perfil.

Exemplo Análise de correspondência Múltipla

A principal função da Dimensão 2 é contrastar dois perfis de cliente que, embora possam ter a mesma qualidade de crédito, se distinguem por outras características demográficas e financeiras.

  • Parte Superior do Eixo (Valores positivos): Este lado do eixo é dominado por um perfil de cliente jovem e de alto risco. Ele associa idade<25 e solteiro com empregado, SMB5a20mil (saldo bancário médio), e poupança e bens baixos (poup<10mil e bens<15mil). Este perfil representa um tipo de risco de crédito mais ligado à fase da vida e à falta de estabilidade financeira inicial.

Exemplo Análise de correspondência Múltipla

  • Parte Inferior do Eixo (Valores negativos):** O contraste na parte inferior do eixo é mais complexo, pois inclui perfis de bom e mau crédito.
    • No extremo negativo, temos o perfil viuvo, que se associa fortemente com bom crédito. Isso sugere que o perfil de viúvo é distinto dos outros perfis de bom crédito (como executivo e idade>45), que estão mais próximos do centro do eixo 2.
    • Na parte inferior, mas no lado do mau crédito, encontramos o perfil separado, que se associa a categorias de alto risco como SMB<5mil (baixo saldo bancário) e div>50mil (alta dívida). Este é um tipo de perfil de mau crédito diferente do perfil jovem, possivelmente ligado a eventos de vida que afetaram a estabilidade financeira.